【CVPR】Masked Autoencoders Are Scalable Vision Learners
发布日期:2022-09-23
返回
Masked Autoencoders Are Scalable Vision Learners
分享人:郭沛妮
研究方向:自监督表征学习
论文题目:Masked Autoencoders Are Scalable Vision Learners
论文作者:Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollar,Ross Girshick
作者单位:Facebook人工智能研究院
论文摘要:本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习者。我们的MAE方法很简单:我们掩盖输入图像的随机补丁,并重建缺失的像素。它基于两个核心设计。首先,我们开发了一个非对称编码器-解码器架构,编码器只对补丁的可见子集(没有掩码标记)进行操作,以及一个轻量级解码器,从潜在表示和掩码标记重建原始图像。其次,我们发现掩蔽高比例的输入图像,如75%,能够产生一个重要的和有意义的自我监督任务。这两种设计的耦合使我们能够高效地训练大型模型:我们加快了训练(3倍或更多)并提高了准确性。我们的可扩展方法允许学习具有良好泛化性的高容量模型:例如,在仅使用ImageNet-1K数据的方法中,一个普通的ViT-Hug模型达到了最好的准确性(87.8%)。下游任务中的迁移性能优于监督的预训练,显示出有前景的扩展行为。
原文链接: